偏度 (Skewness) – 是什么以及为什么？

作者：Ruben Geert van den Berg，出自 Statistics A-Z

偏度（Skewness）是一个数值，用于衡量变量分布的不对称程度。

正（右）偏度示例
负（左）偏度示例
总体偏度 – 公式和计算
样本偏度 – 公式和计算
SPSS 中的偏度
偏度 – 对数据分析的影响

正（右）偏度示例

一位科学家让 1000 人完成了一些心理测试。对于测试 5，测试分数的偏度 = 2.0。这些分数的直方图如下所示。

直方图显示了一个非常不对称的频率分布。大多数人的得分都在 20 分或以下，但右尾延伸到 90 左右。这种分布是右偏的。如果我们沿着 x 轴向右移动，我们会从 0 到 20 到 40 分等等。因此，在图的右侧，分数变得更加正向。因此，右偏度是正偏度，这意味着偏度 > 0。第一个示例的偏度 = 2.0，如图右上角所示。这些分数是强烈正偏的。

负（左）偏度示例

另一个变量——测试 2 的分数——结果显示偏度 = -1.0。它们的直方图如下所示。

大部分分数在 60 到 100 左右。但是，左尾被拉伸了一些。因此，这种分布是左偏的。向左看，向左看。如果我们向左沿着 x 轴移动，我们会朝着更负的分数移动。这就是为什么左偏度是负偏度。事实上，这些分数的偏度 = -1.0。它们的分布是左偏的。然而，它比第一个示例（偏度 = 2.0）的偏度小，或者说更对称。

对称分布意味着零偏度

最后，对称分布的偏度 = 0。测试 3 的分数——偏度 = 0.1——接近这一点。

现在，观察到的分布很少是精确地对称的。这主要见于一些理论抽样分布。一些例子是：

（标准）正态分布；
t 分布；以及
如果 p = 0.5，则二项分布。

这些分布都是完全对称的，因此偏度为 0.000…

总体偏度 – 公式和计算

如果您想计算一个或多个变量的偏度，只需将计算交给一些软件即可。但是——为了完整起见——我仍然会列出公式。如果您的数据包含整个总体，则将总体偏度计算为： \[Population\;skewness = \Sigma\biggl(\frac{X_i - \mu}{\sigma}\biggr)^3\cdot\frac{1}{N}\] 其中

\(X_i\) 是每个单独的分数；
\(\) 是总体均值；
\(\) 是总体标准差，以及
\(N\) 是总体大小。

有关使用此公式的示例计算，请参见此 Google 表格（如下所示）。

它还显示了如何通过使用 =SKEW.P(…) 直接获得总体偏度，其中“.P”表示“总体（population）”。这证实了我们手动计算的结果。遗憾的是，SPSS 和 JASP 都不计算总体偏度：两者都仅限于样本偏度。

样本偏度 – 公式和计算

如果您的数据包含来自某个总体的简单随机样本，请使用： \[Sample\;skewness = \frac{N\cdot\Sigma(X_i - \overline{X})^3}{S^3(N - 1)(N - 2)}\] 其中

\(X_i\) 是每个单独的分数；
\(\) 是样本均值；
\(S\) 是样本标准差，以及
\(N\) 是样本大小。

示例计算显示在此 Google 表格中（如下所示）。

获得样本偏度的一个更简单的选项是使用 =SKEW(…)，它证实了我们手动计算的结果。

SPSS 中的偏度

首先，SPSS 中的“偏度（skewness）”始终指的是样本偏度：它悄悄地假设您的数据包含一个样本而不是整个总体。有很多选择可以获得它。我最喜欢的是通过 MEANS，因为语法和输出干净而简单。以下屏幕截图将指导您完成。

SPSS 偏度 – 通过均值菜单 SPSS 偏度 – 通过均值对话框

语法可以像 means v1 to v5 /cells skew. 一样简单。一个非常完整的表——包括均值、标准差、中位数等——可以通过 means v1 to v5 /cells count min max mean median stddev skew kurt. 运行。结果如下所示。

偏度 – 对数据分析的影响

许多分析——ANOVA (方差分析)、t 检验、回归等——都需要正态性假设：变量在总体中应呈正态分布。正态分布的偏度为 0。因此，在某些样本数据中观察到明显的偏度表明正态性假设被违反。

对于大样本量——比如 N > 20 或 25 左右——这种违反正态性的情况不成问题。在这种情况下，大多数检验对于这种违反是稳健的。这是由于中心极限定理。简而言之，对于大样本量，偏度对于统计检验不是真正的问题。然而，偏度通常与大的标准差相关联。这些可能导致大的标准误差和低的统计功效。因此，明显的偏度可能会降低拒绝某个零假设以证明某种效果的可能性。在这种情况下，非参数检验可能是一个更明智的选择，因为它可能具有更大的功效。

违反正态性确实会对**_小_样本量**（比如 N < 20 左右）构成真正的威胁。对于小样本量，许多检验对于违反正态性假设不稳健。解决方案——再一次——是使用非参数检验，因为这些检验不需要正态性。

最后但并非最不重要的一点是，没有任何统计检验可以检验总体偏度是否 = 0。检验这一点的间接方法是正态性检验，例如：

然而，当真正需要正态性时——对于小样本量——此类检验的功效较低：即使偏离正态性严重，它们也可能无法达到统计显著性。因此，它们主要为您提供一种虚假的安全感。

我想大概就是这些了。如果您有任何意见——无论是正面的还是负面的——请在下面发表评论。我们确实喜欢进行一些讨论。

感谢您的阅读！